模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2016, Vol. 29 Issue (11): 961-968    DOI: 10.16451/j.cnki.issn1003-6059.201611001
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于杂合标准的POMDP值迭代求解算法*
刘峰
南京大学 软件学院 南京 210093
南京大学 计算机软件新技术国家重点实验室 南京 210093
Hybrid Heuristic Value Iteration POMDP Algorithm
LIU Feng
Software Institute, Nanjing University, Nanjing 210093
State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093

全文: PDF (423 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可以同时维持值函数的上界和下界.在扩展探索点集时,选取值函数上下界差值大于阈值的信念点进行扩展,并且在值函数上下界差值大于阈值的后继信念点中选择与已探索点集距离最远的信念点进行探索,保证探索点集尽量有效分布于可达信念空间内.在4个基准问题上的实验表明,HHVI能保证收敛效率,并能收敛到更好的全局最优解.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘峰
关键词 部分可观测马尔科夫决策过程(POMDP) 杂合启发式值迭代 可达信念空间 探索价值    
Abstract:Point-based value iteration methods are a kind of algorithms for effectively solving partially observable Markov decision process (POMDP) model. However, the algorithm efficiency is limited by the belief point set explored in most of the algorithms by single heuristic criterion. A hybrid heuristic value iteration algorithm (HHVI) for exploring belief point set is presented in this paper. The upper and lower bounds on the value function are maintained and only the belief points with its value function bounds difference greater than the threshold are selected to expand. Furthermore, the furthest belief point away from the explored point set among the subsequent belief points with the above difference also greater than the threshold is explored. The convergence effect of HHVI is guaranteed by making the explored point set fully distributed in the reachable belief space. Experimental results of four benchmarks show that HHVI can guarantee the convergence efficiency and obtain better global optimal solution.
Key wordsPartially Observable Markov Decision Process(POMDP)    Hybrid Heuristic Value Iteration    Reachable Belief Space    Exploration Value   
收稿日期: 2016-05-04     
ZTFLH: TP 319  
基金资助:计算机软件新技术国家重点实验室面上项目(No.ZZKT2016B07)资助
作者简介: 刘 峰,男,1976年生,博士,讲师,主要研究方向为智能规划、强化学习.E-mail:ufeng_nju@163.com.
引用本文:   
刘峰. 基于杂合标准的POMDP值迭代求解算法*[J]. 模式识别与人工智能, 2016, 29(11): 961-968. LIU Feng. Hybrid Heuristic Value Iteration POMDP Algorithm. , 2016, 29(11): 961-968.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201611001      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2016/V29/I11/961
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn